P11-2008-82.. ±,.. Šμ Ó±μ ˆ ˆ Šˆ ˆ, ˆŠ ˆ ˆ Š ƒ œ GRID-ˆ Š EGEE/WLCG
±.., Šμ Ó±μ.. P11-2008-82 É É É Î ± ² μ, μ ± ÕÐ Ì Ò²± ÒÌ ²μ ²Ó μ grid- Ë É Ê±ÉÊ EGEE/WLCG ³ É ÕÉ Ö μï ±, μ² Î Éμ μ ± ÕÐ Ò²± Ë - ²μ μ²ó μ ³ middleware glite μ ±É EGEE/WLCG. É ² ±μ ²ÖÍ μ Ò É É É Î ± ² μï μ±, μ ² Ò μ μ Ò ²Ò μ ± μ Ö μ, É ± Ò ÕÉ Ö ²μ Ö μ Ê ² Î Õ μ- É μ μ É ²Ó μ É μ. Œ É ²μ³ ²Ö μ μéò μ ²Ê ² Ëμ ³ Í Ö μ Î Ì Ë ²μ ± ² Ì CERNÄTier1 Tier1ÄCERN - μ 24.03.2007 μ 10.12.2007. μé Ò μ² μ Éμ Ëμ ³ Í μ ÒÌ É Ì μ²μ ˆŸˆ. μμ Ð Ñ μ μ É ÉÊÉ Ö ÒÌ ² μ. Ê, 2008 Uzhinskiy. V., Korenkov V. V. P11-2008-82 Statistical Analysis of Failures when Transferring Data in the Global EGEE/WLCG Infrastructure The most frequent errors appearing while transferring ˇles by middleware glite are considered. Correlation and statistical analysis of the errors is made and main areas of their appearance are deˇned. Based on the information we forward some suggestions to improve performance and reliability of the Services. As a material for this work, we used statistic information about errors on CERNÄTier1 and Tier1Ä CERN channels collected during the period from 24.03.2007 till 10.12.2007. The investigation has been performed at the Laboratory of Information Technologies, JINR. Communication of the Joint Institute for Nuclear Research. Dubna, 2008
ˆ 2008. É Éμ μ³ ³ Ê É ÊÐ μ²óïμ μ - Ò ±μ²² (LHC, Large Hadron Collider, http://public.web.cern.ch/public/ en/lhc/lhc-en.html) Å ÔÉμ ² Í Ö μ ±É μ Ö ³μ μ μ²óïμ μ ³ Ê ±μ É ²Ö Ô² ³ É ÒÌ Î É Í, μ μ μ Î ±μéμ μ μ Ö ²Ö É Ö μé± ÒÉ μ ÒÌ ËÊ ³ É ²Ó ÒÌ Î É Í ÒÖ ² Ì μ É. Ò Ô± ³ Éμ LHC Ê ÊÉ ² Ò μ ³Ê ³ μ³ê Ï Ê, μ ÉÊ ± Ô± ³ É ²Ó Ò³ Ò³ μ² Ò Ê ÊÉ μ²êî ÉÓ ±μ²ó±μ ÉÒ ÖÎ ÊÎ ÒÌ ³ μ Ì μé ² μ É ²Ó ± Ì É ÉÊÉμ Ê É Éμ ³. ÊÉÓ ³μ ² ² Ö μ Éμ É Éμ³, ÎÉμ Ó μ Ñ ³ Ëμ ³ Í É ±Éμ- μ LHC μ ² μ μé± ²Ó μ³ ³ Î μ ±μ É Ê±Í μ² ²ÖÉÓ Ö ²Ö ²Ó Ï μ μé± ² μ ²Ó Ò Í É Ò. ²Ö ² Í É ±μ ³μ ² μ μé± ² Ò² μ μ μ- Ì Î ± Í μ Í Ëμ ³ Í μ μ- ÒÎ ² É ²Ó μ É ³Ò LHC, μ² ÕÐ μ Í É μ ÒÌ Ö Ê μ (Tier's) ³μ É μé Ì ÒÎ ² É ²Ó ÒÌ Ì ÒÌ Ê μ : Tier0(CERN) Tier1 Tier2 Tier3 ±μ³ ÓÕÉ Ò μ²ó μ É ². ²Ö μ Î Ö μ ÉÊ ± Ô± ³ É ²Ó Ò³ Ò³ μ ³μ μ É Ì μ μé± ²Ö Ì ÊÎ É ±μ μ ±É Ò²μ Ï μ μ²ó μ ÉÓ grid- É Ì μ²μ. μ ±É, μ²êî Ï ³ LHC Computing GRID (LCG) ( ²Ó Ï ³ μ ±É É ² Ò ÉÓ Ö WLCG, Worldwide LHC Computing GRID, http://lcg.web.cern.ch/lcg/), Ï ÕÉ Ö μ μ Ò μ É μ Ö - ² μ Ì Î ±μ Ì É ±ÉÊ Ò É ³Ò μ ²Ó ÒÌ Í É μ ²Ö μ- ±É LHC. μ ±É EGEE (Enabling Grids for E-sciencE, http://public.eu-egee.org/), É μ Ö Ò WLCG, μ ²μÉ ² É É ²Ó μ ÉÓ ³Ò ² É ÉÓ ³ μ Ò ±μ³ ÓÕÉ Ò Ê Ò ÊÕ μ μ μ ÊÕ Ê, ³ ³μ μ μ²ó μ ÉÓ Ö μ ³ É μ ³ μ μ³ ³ ÏÉ. μμ Ð É μ ÊÎ ÒÌ, ³ - ÕÐ Ì Ö Ë ±μ Ò μ± Ì Ô ( ), Å ² Ò μ²ó μ É ²Ó Ë - É Ê±ÉÊ Ò EGEE, μôéμ³ê Î Éμ ÔÉÊ É μ ÊÕ Ë É Ê±ÉÊ Ê Ò- ÕÉ EGEE/WLCG. 1
Ò μ μ É ²Ó Ò Î ÒÌ Å ÔÉμ μ Ö - É ²Ó Ö μ É ²ÖÕÐ Ö Ê Ï μ μéò μ ±É EGEE/WLCG, ± ± ² - É, μ ±É LHC. Î μ Ð μ Ñ ³Ò ³μ Ëμ ³ - Í μ É ²ÖÕÉ Öɱ É É Ó μ Ê ± μ μ μ μ É μé ³ É ±Ê Ê, ±μ Ê ±μ É ²Ó Ê É ÊÐ, μ Ñ ³Ò - Î Î É ²Ó μ μ ÉÊÉ. μ Öɱ ÉÒ ÖÎ Ë ²μ Ê ÊÉ - ÉÓ Ö ³ Ê, Í É ³ Tier1 Tier2. ² μ μ Ò³ μéμ± ³ ÒÌ Ö ²Ö É Ö ²μ μ É É μ Î, Ï ±μéμ μ glite (http://public.eu-egee.org/) Å middleware, ÉÒ ³μ³ ³± Ì μ ±É EGEE, μé Î É FTS (File Transfer Service, http://egeejra1-dm.web.cern.ch/egee-jra1-dm/fts/default.htm, https://twiki.cern.ch/twiki/ bin/view/egee/fts)[1]. FTS Å Î ÒÌ É Éμα ÄÉμα. μ μ μ³ μ - μ²ó ÊÕÉ ²μ Ö, ÉÒ ³Ò ²Ö ±μ ± É ÒÌ Ô± ³ Éμ. μ μ²ö É Ê ²ÖÉÓ μéμ± ³ ÒÌ, Ö ² μ²ó μ Ö - Ê μ É, μé Ð ÉÓ Ê ±Ê É Ì ² Ð ÒÌ, É ± μ É ²Ö É ² Î ÊÕ É É É Î ±ÊÕ Ëμ ³ Í Õ μ Î ³. μ ±É EGEE/WLCG μ²ó ÊÕÉ Ö É É ³Ò Ì Ö ÒÌ: Castor (www.castor.org), dcache (www.dcache.org) DPM (www.gridpp.ac.uk/ wiki/disk Pool Manager), ²Ö ³μ É Ö ±μéμ Ò³ μé Í - ²Ó Ò SRM (Storage Resource Manager) (www.gridpp.ac.uk/wiki/srm). ³ Ð ÒÌ Ë Î ±μ³ Ê μ μé Î É GridFTP (dev.globus.org/wiki/gridftp) Å μéμ±μ², μé Ò ³± Ì μ ±É Globus (www.globus.org). FTS ³μ É Ê É Ò³ ±μ³ μ É ³, μ Î Ö Ò μ±êõ μ ÉÓ μ μ É ²Ó μ ÉÓ. μé Î É μ - μé±ê μ, μ ± ÕÐ Ì Ò²± ÒÌ, Î ³ ±μéμ ÒÌ - Î ÉÊÕ Ö ²ÖÕÉ Ö μ ² ³Ò, Ö Ò ±μ ± É Ò³ ²μ Ö³. ˆ ² - μ Õ μ μ ÒÌ μï μ± μ ÖÐ ÉμÖÐ Ö μé. ˆ Ìμ Ò³ Ò³ μ ²Ê ² Ëμ ³ Í Ö μ μé 28 ± ²μ Ö, Ò²±Ê μ ±μéμ Ò³ μ ÊÐ É ²Ö² FTS-, Ê É μ ² Ò, μ ² 10 ³ ÖÍ. Ò μ²êî Ò É ³Ò ³μ Éμ Spider [2]. Šμ³ μ FTS-μ Éμ μ Ò²μ Ò ² μ μ² 350 Ï ²μ μ μï μ±. ²μ μ Ï ²μ μ²ó μ μ, μ ±μ²ó±ê μ²óï É μ μμ Ð μ μï ± Ì μ É μ Ë Í μ ÊÕ Ëμ ³ Í Õ Å ÉÊ, Ë ², É ÊÉÒ μ²ó μ É ²Ö É.. μμé É É μ, ²Ö Ì Ö Ëμ ³ - Í μ μï ± μ²ó μ ² Ö ³ Ì ³ ÉÉ μ, ² Ï ²μ μ. μ²óïμ ±μ² Î É μ μ Ö μ Éμ²Ó±μ Î ²μ³ ±μ³ μ É, ±μéμ Ò³ - Ìμ É Ö ³μ É μ ÉÓ FTS, μ Ì ² Î Ò³ Ö³. Î ÉÊÕ Ê μ μ μ Éμ μï ± ÒÌ ÖÌ μ μ μ Éμ μ ²μ Ö Ò ²Ö É É Î μ, Éμ Ìμ É Ö μ ÉÓ μ Ò ÉÉ. ² Ê É ³ É ÉÓ, ÎÉμ ³Ö ² μ Ö Ö FTS μ³ Ö- ² Ó 1.5 μ 2.0. μ μ Î ² μ μö ² Ó μ Ï μ 2
Ê μμ Ð Ö μ μï ± Ì, ² É Î μ É ÉÓÖ μ É É Î É : ³μÉ ² μ² μ Ê²Ö ÒÌ μï μ± FTS 1.5, É Î Ò ² ²Ö FTS 2.0, μ² É ÒÌ - ʲÓÉ Éμ ±μ μ³ μ É, É ± Ò μé± ²μ μ ʲÊÎÏ Õ. FTS 1.5 μ ² ±² Ë ± Í μ μ²óï É É ²Ö É Î ÉμÉ Ì μö ² Ö. ²Ö μ ² Ö Ò² μ É ² Ò É μï μ±, Î Éμ É Î ³ÒÌ ± ² Ì μ 24.03.2007 μ 28.06.2007. ³ μ - É ² ²Ö μ É ² Ö μ³ ÊÉμÎ ÒÌ É μ Ò² Ò μ Ö ± ÖÉ. Ï ± ±²ÕÎ ² Ó ² μ ² ÏÓ μ Ò 15 μ Í É. ʲÓÉ É μ Î ²Ó ÒÌ ÒÌ Ë Ê μ ²μ 33 μï ± ² Î μ Î ÉμÉμ Ìμ Ö ³ ³ Éμ³. Éμ²Ó Ï μ- ± μ μ ÑÖ Ö É Ö ² μ ÉÓÕ μ ± μ Ö μï μ±. ³, Ó Ò μ ² ³Ò É Î ±μ²ó± Ì μ μ³ Éμ ³μ ÊÉ μ ÉÓ Ï Ê É μï ±Ê, ±μéμ Ö ±μ μ²óï μ - ± É. Ò²μ Ï μ ³ É ÉÓ μï ± Î ÉμÉμ Ìμ Ö ³ ³ Éμ³ É ³ ÓÏ 10. ʲÓÉ É ²Ö ²Ó Ï μ - ² Ò² μéμ Ò 15 μï μ±. μ ±μ²ó±ê μ² μ μ μï μ± Ì μ² μöé ÒÌ Î μ ± μ Ö ³ É μ μ²ó μ μ²óïμ μ Ñ ³, μ Ê ÊÉ μ² μ ³ Ò μ μé. ² Ê É ³ É ÉÓ, ÎÉμ μ ² Î μï ± ³μ É ³μ μ Ö ²ÖÉÓ Ö μé ²Ó Ò³ μ É ÉμÎ μ ² É ²Ó Ò³ - ² μ ³, μéò μ³ ² ÊÉ Ö μ ÉμÖ μ. ±μéμ ÒÌ μ² μ É ÒÌ μï μ± μ ²μ 1, μ² Ò μ± μ ² ³ Ò³ ³μ μ É (https://twiki.cern.ch/ twiki/bin/view/lcg/transferoperations PopularErrors). ²Ó Ï ³ ²Ö μ - Ö μï ± Ê ÊÉ μ²ó μ Ò É ²μ ± Ê, Ò - Ï ³Ê, ÊÉ ÖÖ ±² Ë ± Í μï μ± μé Í ³μ μ FTS, ±μéμ Ö Î ÉÊÕ μ É ÉμÎ μ μ Î μ ÖÉ, ±μéμ ÒÌ ²ÊÎ ÖÌ μ - É μ Ï ²μ Ò μï μ±. Ð Ì ±É É ± μ² μ É ÒÌ μï μ±, μé ² - ³ÒÌ FTS 1.5, μ²êî Ò ² μ³ ÊÉμÎ ÒÌ É μ, Ò É ². 1. É ² Í id Å ÊÉ É Ë ± Í μ Ò μ³ μï ±, Valid N Å μ Ñ ³ Ò μ ±, Mean Å ³ É ³ É Î ±μ μ, Minimum Maximum Å ³ ± ³ ²Ó μ ³ ³ ²Ó μ ³ Éμ μï ± Ìμ ÒÌ É Ì μ² Î Éμ μ ± ÕÐ Ì μï μ±, Std. Dev Å ± É Î μ μé- ±²μ. Rating Å μ Í Ö μï ± Ë ²Ó μ³ É, Ò É ² Ö μμé É É ³ É ³ É Î ± ³ μ ³. 3
² Í 1. Ð Ì ±É É ± μ² Î Éμ μ ± ÕÐ Ì μï μ± FTS 1.5 id Valid N Minimum Maximum Mean Std. Dev. Rating 25 16 1 3 1,31 0,602 1 1 16 1 12 4,06 2,999 2 19 16 1 9 4,19 2,373 3 8 16 2 8 4,69 1,580 4 30 16 3 11 5,19 1,905 5 21 16 2 14 6,38 4,689 6 40 16 2 12 6,44 3,386 7 31 16 2 12 7,25 3,109 8 16 16 4 14 7,69 2,822 9 9 15 4 12 9,40 2,261 10 11 15 4 15 9,60 3,043 11 107 13 5 15 9,85 3,211 12 14 15 8 15 11,33 2,093 13 12 13 8 15 11,92 2,362 14 34 11 6 15 12,00 3,098 15 ÖÉÓ ÖÉ Í É ³ É μ ² ² ³ Ê μ μ μï ± SRM GridFTP. ±μ ³ É, ³ ³Ò μï ± ³ SRM, Ìμ ÖÉ Ö μ² Ò μ± Ì μ Í ÖÌ Ë ²Ó μ³ É Å 1, 3, 5, 8, 15-, μï ± GridFTP ³ ÕÉ 2, 4, 9-10- ³ É. ÖÉ μï μ± SRM Ò² μ ³³- Ò³, μ Ò² ² Ò μ Ì ÖÌ μ μ ²μ Ö. Ð Ö Ò É ³ ÊÉ ³, ÎÉμ, μ Ð ³ ²ÊÎ, ³μ É μ Î ÉÓ ² μ μï ±Ê ±μ Ë Ê Í, É.. ³ μ É ² Ò² Ò μ É ÉμÎ μ μ²óï ³, ² μ ²μÌ ³ μ ÉμÖ ³. ÉÊ Í Ö μï ± ³ GridFTP ±É Î - ± É ± Ö : Ì Ö Ò É ³ ÊÉ ³, μ É ²Ó Ò Å ÔÉμ μ ³³- Ò μï ±. μ É μï ± Ö Ò Castor dcache. Ï ± μ μ μ μ μ ²μ μ Ê μ ÉÓ μ ± ±μ³ê-² μ ±Ê, É ± ± ± ± Ö Ì Ö Ì É ±ÉÊ μ μ μ μ ÉÓÕ ²μ Ö. ³, ³ Ö μ Ê- ²Ö Ö μï ± Castor Å Device or resource busy ³μ É μ ± ÉÓ, ±μ Ë ² Ð μ ±μ Í ² μ μ³ Î ± ± μ ±μ Í Ò, ±μ³ Ò nsls ( ² srmls) μ Ð ÕÉ μ ʲ μ ³. dcache Å μ ³ÒÌ μ Ê²Ö ÒÌ μï μ± an end-of-ˇle was reached μ ± É ² μ μ² ±μ μ μ μ É É, ² μ ² μ Ò²μ μ μ μ. Œμ μ Ò ² ÉÓ É μ μ ÒÌ μ ² ³ ÒÌ μ ² É, ±μéμ ÒÌ ³μ ÊÉ μ ± ÉÓ μï ±, Å ÔÉμ É ³ ÊÉÒ, μ ³³ Ò μï ± Í Ë Î ± μï ± ²μ. μ² ²μ μé μ Ò³ ³μ ÊÉ ÒÉÓ μéò - ² ÒÖ ² Ö μ ³³ ÒÌ μï μ±, μ ±μ²ó±ê Ì ² Ö ²Ö É Ö μé μé μ μí Ê μ, μ ² ³ ²μ Ö ³μ É ÒÉÓ Ï Ò- 4
Ìμ μ³ μ μ μ ² μ ÉÎ. ɲ Î Ò³ ÉμÎ ±μ³ ³ É ² ²Ö μ μ μ ÖÉ ²Ó μ É ³μ É Ö ²ÖÉÓ Ö ² ³μ É ³ Ê μï - ± ³. É ². 2 Î É Î μ ³ É Í ±μ ²ÖÍ ³ Ê μ² μ É Ò³ μï ± ³ FTS 1.5. ² ±μ ²ÖÍ μ ÒÌ ³μ É ³ Ê μï ± ³ μ É ² - ±μéμ Ò μ²μ Ö, Ò Ò ² μ ²μ Î ±, ² μ μ ÒÉ Ò³ ÊÉ ³. ³, Ê ² Î Î ² μ SRM É ± ʳ ÓÏ Õ Î ² μï - μ± ²μ É Castor dcache, ÎÉμ É ²Ö É Ö μ² ²μ Î Ò³, É ± ± ± μ μ Ö μ Ö μ ÉÓ SRM Å μ Î ÉÓ ³μ É É - ³ ³ Ì Ö,, ² SRM μ Ö ±, μ Ò ± É ³ ³ Ì Ö μ Éμ μìμ ÖÉ. ± μ² ²μ Î μ É Ö ³μ ÉÓ ³ Ê ±μ- ² Î É μ³ μï μ±, ±μéμ ÒÌ SRM μ ÉÊ, É ³ ÊÉ ³ SRM. ² ³Ò ³μ ³ μ²êî ÉÓ μ ÉÊ ± SRM, Éμ ³ Ì ³ É ³ ÊÉμ É Ê- É Ö. μ μ²ó μ μ²óïμ ±μôëë Í É ² μ ±μ ²ÖÍ ( 0.6 ) ³ Ê μï ±μ Castor É Device or resource busy μï ±μ GridFTP 421 Timeout (900 seconds): closing control connection Å ²Ö μ μ± Ò É, ÎÉμ μ²óï Ì Ê ± Ì Castor μ ± É μ ² ³ É ³ ÊÉμ. ²Ó- Ö ³μ ÉÓ (±μôëë Í É ±μ ²ÖÍ Å 0,76) ³ Ê μï ± ³ dcache an end-of-ˇle was reached Destination and source ˇle sizes don't match, ÎÉμ μ É É μ ÒÉ μ Ê É μ ² ÊÕ ±μ μ³ μ ÉÓ μ Éμ³, ÎÉμ μï ± dcache ³μ Ê μ ± ÉÓ Ê ³ Ö μ μ³ ÊÕÐ μï ±. ±μéμ Ò ³μ É É ²ÖÕÉ μ μ²ó μ μ²óïμ É μ- ²Ê ² Éμ²Î±μ³ ²Ö μ² μ μ μ μ É ²Ó μ μ Ì ÊÎ Ö. ±, - ³, Ê ² Î Î ² μï μ± Castor É Device or resource busy Ê ² Î É Ö Î ²μ μï μ± SRM failing to do 'setdone' on target SRM (±μôëë Í É ±μ ²ÖÍ 0,71). μ ³μ μ, Ö μï ± SRM Ê É μ ³ ³ ±² Ë Í μ Í Ë Î ±ÊÕ μï ±Ê Castor. ³ ²Ò É É ²Ö É ²Ó Ö ³μ ÉÓ (±μôëë Í É ±μ ²ÖÍ 0,8) ² Í 2. Šμ ²ÖÍ μ Ö ³ É Í μ² μ É ÒÌ μï μ± FTS 1.5 id/id 25 21 40 19 16 1 11 12 34 9 107 14 25 1,00 0,36 0,03 0,24 0,38 Ä0,49 Ä0,34 Ä0,47 Ä0,57 0,36 Ä0,59 Ä0,53 21 0,36 1,00 Ä0,51 0,71 0,60 Ä0,57 Ä0,57 Ä0,13 Ä0,19 0,26 Ä0,05 Ä0,82 40 0,03 Ä0,51 1,00 Ä0,33 Ä0,15 0,26 0,76 0,33 Ä0,04 Ä0,23 Ä0,35 0,48 19 0,24 0,71 Ä0,33 1,00 0,63 Ä0,33 Ä0,33 Ä0,14 Ä0,37 0,14 Ä0,07 Ä0,48 16 0,38 0,60 Ä0,15 0,63 1,00 Ä0,47 Ä0,01 0,29 Ä0,36 0,21 Ä0,03 Ä0,63 1 Ä0,49 Ä0,57 0,26 Ä0,33 Ä0,47 1 0,47 0,32 0,27 Ä0,81 0,27 0,80 8 Ä0,52 Ä0,26 0,20 Ä0,18 Ä0,37 0,41 0,10 0,10 0,36 Ä0,50 0,14 0,64 30 0,06 0,20 Ä0,60 0,11 0,15 Ä0,43 Ä0,56 Ä0,20 Ä0,12 0,14 0,00 0,17 31 Ä0,33 Ä0,83 0,48 Ä0,81 Ä0,48 0,51 0,56 0,20 0,36 0,64 Ä0,16 0,63 5
³ Ê μï ±μ GridFTP Operation was aborted (the GridFTP transfer timed out) μï ±μ dcache 426 Data connection. data write() failed: Handle not in the proper state. FTS 2.0 ˆ ² μ μ² μ É ÒÌ μï μ± FTS 2.0 μ μ- ²μ Ó 1.9.2007 μ 10.12.2007. Œ Éμ μ²μ Ö ² μ Ö ³ Ö² Ó. Ð Î ²μ μï μ± Ê³ ÓÏ ²μ Ó ³ 14 %, ±μ² Î É μ μï - μ± μ Î ²Ó μ Ò μ ± Î É ²Ó μ Ê ² Î ²μ Ó μ É ²μ 36, ÎÉμ μ² ±μ μ³ μ, É ± ± ± μé μ É ²Ó μ μ²óïμ³ ±μ² Î É μ μ ÒÌ μï μ± μï ± ³, μ ± ÕÐ ³ Éμ²Ó±μ ÊÌ-É Ì É Ì μ- μ ² Î μ ÉÓ Ö É. É μ μï ± Î ÉμÉμ Ìμ Ö Ê³³ Ò³ ³ Éμ³ ³ ÓÏ 10, ³Ò μ²êî ² Éμ μ ÊÕ Ò μ ±Ê 19 μï μ±, μ Ð Ì ±É É ± ±μéμ ÒÌ Ò É ². 3. Šμ² Î É μ μï μ±, Ö ÒÌ SRM, Ê ² Î ²μ Ó μ Ï É, ÔÉμ μï - ± μ Í ÖÌ 1, 2, 6,11, 13, 15. μï ± SRM, ³ ÕÐ μ Éμ μ ³ É, Ö Ò É ³ ÊÉ ³, ² ÊÕÐ Ö Å μ ÉÊ μ ÉÓ ² Í 3. Ð Ì ±É É ± μ² μ É ÒÌ μï μ± FTS 2.0 id Valid N Minimum Maximum Mean Std. Dev Rating 313 19 1 4 1,58 0,902 1 306 19 1 4 2,00 0,816 2 311 19 1 7 3,68 1,734 3 8 19 3 7 4,11 1,150 4 11 19 3 10 6,21 2,097 5 309 19 3 13 7,26 3,034 6 362 18 6 10 8,06 1,110 7 32 14 2 15 8,50 5,019 8 75 10 5 14 8,50 3,536 9 21 19 4 14 8,53 2,776 10 359 10 4 15 9,00 3,559 11 304 18 3 14 9,11 3,496 12 239 17 7 13 10,47 1,972 13 365 16 5 14 10,50 2,683 14 321 14 7 15 11,00 2,386 15 14 16 9 15 11,31 2,182 16 23 16 8 14 11,75 1,732 17 90 14 7 15 11,93 2,895 18 12 14 8 15 12,14 2,445 19 6
É μ ² Å ÔÉμ μ ³³ Ò μï ± SRM. ² Î μï μ± SRM μ² μ ÑÖ ³μ μ μ²óõ ³ Éμ ³ Ê ² Î Ò³ É ³ ³ Ì - Ö ÒÌ (dcache, Castor. DPM), ±μ μ, É ³, - Í Ë Î ± μï ± ²μ Ê ÊÉ μ² μ ÉÓÕ ± ÒÉÒ μμ Ð Ö³ SRM. ²μ GridFTP-μÏ μ± μ É ²μ Ó ³ Ò³, μ ³ ÕÉ 3, 4, 7-14- ³ É, Î ÉÒ Ö Ò ² μ É ³ ÊÉ ³, ² μ μ ³μ μ ÉÓÕ Ê É μ ÉÓ μ. μ É μï ± Ö Ò Castor dcache, μ μ - μ³ ÔÉμ É μï ±, ÎÉμ FTS 1.5 ² μ Ì ³μ Ë ± Í. Š ± Ê μ³ ²μ Ó, μ μ Ò É μ μ μ²ó μ ²μ μ ÉÓ, É ± ± ± μ ÊÉ É ÊÕÉ ³μ ²μ ± μéò ²μ. ± μö ² Ö μ- Ò É μï μ± Å μï ± μ²ó μ É ². μ É ² Í μï ± μ μ μ μ μ ³ ÕÉ 8-, 17-18- ³ É. Ö Ò Ê± ³ μ²ó μ É ² ³ μ μ ÊÉ ± Ë ²Ê, ÎÉμ μ É ± μ² μ É - μ μï ± [INVALID PATH] speciˇed ˇle(s) does not exist. Ï ± μ μ μ μ μ ³μ ÊÉ ÒÉÓ É ± Ò Ò ² Î ³, ± ± ²ÊÎ Request- ˇlestatus [id] failed with error:[ [DATE] state Failed : GetStorageInfoFailed: ˇle exists, cannot write, ² μ μé ÊÉ É ³ Ë ² Å state Failed : ˇle not found : path [path] not found. ³μ μö ² μ μ ÒÌ μï μ± É μ± Ò É, ÎÉμ É É Ö ²Ó μ³ ², É ± ± ± ±μ² Î É μ μ ³³ ÒÌ μ μ É μ ² É Ö ± ±μ² Î É Ê μï μ±, μ Ï ³ÒÌ μ²ó μ É ²Ö³. É ². 4 Î É Î μ ³ É Í ±μ ²ÖÍ ³ Ê μ² - μ É Ò³ μï ± ³, μé ² ³Ò³ FTS 2,0. Šμ ²ÖÍ μ Ò ², ± ± μ³ ÔÉ ² μ, μ É - ² ±μéμ Ò μ ÒÉ Ò ²μ Î ± ±μ μ³ μ É. ³, ²Õ- É Ö Î É± Ö μ É Ö ³μ ÉÓ ³ Ê μï ± ³ dcache μï ± ³ μ ±²ÕÎ Ö Castor, SRM μ²ó μ É ²Ó ±μ μï ±μ μé ÊÉ É Ö Ë ²μ. ± ± ± dcache Ê É μ ² Éμ²Ó±μ T2- É Ì Ö ²Ö É Ö Ë ±É Î ± ±μ- Î Ò³ Ê ±Éμ³ Ò²±, Éμ Í ² Í Î Ò³ μ - Ï É Ö É- ÉμÎ ±, ² Ö ÉÓ Ö ³ Ê É Ö, ² μ É Ê ³Ò ² Í 4. Šμ ²ÖÍ μ Ö ³ É Í μ² μ É ÒÌ μï μ± FTS 2.0 id/id 313 8 306 311 11 21 309 304 75 32 90 313 1,00 0,15 Ä0,45 Ä0,55 Ä0,16 Ä0,17 Ä0,32 0,01 0,60 0,39 Ä0,20 8 0,15 1,00 0,06 Ä0,09 Ä0,22 Ä0,14 Ä0,01 Ä0,50 0,09 0,05 0,16 306 Ä0,45 0,06 1,00 0,27 0,23 0,29 0,47 0,11 Ä0,41 Ä0,37 0,35 311 Ä0,55 Ä0,09 0,27 1,00 0,37 0,22 0,26 Ä0,18 Ä0,65 Ä0,54 Ä0,06 11 Ä0,16 Ä0,22 0,23 0,37 1,00 0,19 0,49 0,22 Ä0,68 Ä0,85 Ä0,58 21 Ä0,17 Ä0,14 0,29 0,22 0,19 1,00 0,00 0,59 0,00 Ä0,31 Ä0,13 309 Ä0,32 Ä0,01 0,47 0,26 0,49 0,00 1,00 0,01 Ä0,72 Ä0,62 Ä0,14 7
Ë ² ³ μé ÊÉ É Ê É, Éμ μ μ²ó μ Ö dcache ²μ μìμ É. Ê- μ ³ : Ê ² Î Î ² μ SRM, Ö ÒÌ É ³ ÊÉ ³ ² μ ÉÊ μ ÉÓÕ, ʳ ÓÏ É Ö Î ²μ μï μ± μ²ó μ É ². Éμ É Î É Ö μ É Ö ³μ ÉÓ ³ Ê μï ± ³ SRM Castor, ±μ - μ SRM Castor μ Éμ Ê É É μ ÉÓ Ö μï ± μ - ± ÕÉ, É Î Ò³ ³ μ³ ³μ É ²Ê ÉÓ ³μ ÉÓ (±μôëë Í É ±μ - ²ÖÍ Ä0,72) ³ Ê μï ±μ SRM failed to contact on remote SRM [srm]. Givin' up after 3 tries μï ±μ Castor Required tape segments are not all accessible. ˆ μ² É ÒÌ μ ÒÌ ³μ É ÌμÎ É Ö μé³ É ÉÓ ³μ ÉÓ ³ Ê μï ±μ Castor Device or resource busy dcache empty ˇle size returned (±μôëë Í É ±μ ²ÖÍ Å 0,59). É ²Ó μ - ² μ μ ³μ Ö μ² ³μ É ÒÖ ÉÓ ²μ Î ±ÊÕ μï ±Ê μ μ³ ²μ, ÎÉμ, Ê ²μ μ, μ²μ É ²Ó Ò³ μ μ³ μé É Ö μé. œ ˆ Š Œ ˆˆ ³ Ö ± ² ³ μ ± μ Ö μï μ± Å É ³ ÊÉ ³, μ ³³ Ò³ μï ± ³, Í Ë Î ± ³ μï ± ³ ²μ μï ± ³ μ²ó μ É ². Š ± Ò²μ ± μ, ² Î μ ±μ ÉÓ μ ³³ Ò μï ±, É ± ± ± ÊÐ É ÊÕÉ μé μé Ò ³ Éμ μ²μ ² Ö ± É Î ± Ì μï μ± ²μ ÖÌ. ±μ Éμ É ³ É ÉÓ, ÎÉμ ²μ Ö μ ÉμÖ μ μ μ ²Ö- ÕÉ Ö, ² μ É ²Ó μ, μéò μ ÒÖ ² Õ μ ³³ ÒÌ μï μ± μ² Ò μ μ ÉÓ Ö μ ÉμÖ μ μ μ. Í Ë Î ± μï ± ²μ Å μ μ²ó μ ²μ Ö μ ² ÉÓ,, ±μ μ, μ μ Ò μï ± Ê ÊÉ ÊÉ- É μ ÉÓ, É ± ± ± Ö ²ÖÕÉ Ö μ ³ ³ Ì ³μ ±μ É μ²ö μéμ μ- μ μ É ²μ. É μ ²Ó μ ² ÖÉ ²Ó μ É μ μ ² É Å Ê³ ÓÏ Î ² É ± Ì μï μ± ÊÉ ³ μ ³ μ μ - μ Ö Ì μö ². ²Ö ² Ö ÉÊ Í μï ± ³ μ²ó μ - É ² μî Ò³ É ²Ö É Ö ÊÉÓ μ ÒÏ Ö ± ² Ë ± Í μ²ó μ É - ², É ± Ê ² Î Ö ± Î É ±μ² Î É μ±ê³ É Í ²μ Ö. μ ² ³ É ³ ÊÉμ, μ- ³μ³Ê, ³ Ö ²μ Ö Î ÉÒ Ì. μ μ Éμ- μ Ò, ²μ Î Ò³ Ï ³ É ²Ö É Ö Ê ² Î ³ É ³ ÊÉμ, μ Ê μ Éμ μ Ò, μ μ Ò Ï ³μ É ³Ò³ É Ò³ μ μ³ ± ÉÓ Ö μ ÉμÖ μ. μ Ò³ Î ³ ³ Ì ³ É ³ ÊÉμ Ö ²ÖÕÉ Ö ÒÖ ² μéμ μ μ ÒÌ Ô² ³ Éμ μé Ð μ ± μ Ö Î ³ ÒÌ μî, μôéμ³ê μ ² μ É ³ ²Ó ÒÌ É ³ ÊÉμ, ±μ- Éμ ÒÌ É ³ Ê É μì ÖÉÓ μõ ËÊ ±Í μ ²Ó μ ÉÓ ÔÉμ³ É ÖÉÓ μ μ É ²Ó μ ÉÓ, Å ²μ Ö ± μ μé² Ö μé, ±μéμ μ Ìμ É Ö ³ ÉÓ Ö ³ É Éμ ³ ± ± ±μ ± É ÒÌ Ê ²μ, É ± ²μ ²Ó ÒÌ - 8
μ. μ ²Ê, É Ò μ μ μ É ÎÓ μ²μ É ²Ó ÒÌ Ê²ÓÉ Éμ μ³ ² Å ÔÉμ μ ÉμÖ Ò Ô± ³ ÉÒ μ ³ μ - μ ³ Ö ²μ ²Ó μ Ë É Ê±ÉÊ. Š ˆ ³μÉ Ò μï ±, μ² Î Éμ μ ± ÕÐ μé FTS ± ² Ì CERN-T1 T1-CERN, Î Ò Ì μ ± μ Ö ÊÉ ³μ Ö. Ò² Ò ² Ò Î ÉÒ μ μ ÒÌ ² μ ± μ Ö μï - μ±: É ³ ÊÉÒ, μï ± μ²ó μ É ², Í Ë Î ± μï ± ²μ, É ± μ ³³ Ò μï ±. μ μ ² μ² μ É ÒÌ μï μ± Ò² ²μ Ò μ ³μ Ò ÊÉ Ê²ÊÎÏ Ö μ μ É ²Ó μ É μ É μ. ˆ ² μ Ö μ μ μ μ μ ³μ ÊÉ Î É ²Ó μ Ê ±μ ÉÓ μí Ô μ- ²ÕÍ μ μ Ö É μ ² Ö μ, ³ Éμ μ²μ Ö μ ² Ö Î μï ± ÊÉ ³ ÒÖ ² Ö ³μ Ö Ê Ìμ μïμ ÊÎ Ò³ μï - ± ³ ³μ É É ÉÓ μ μ²ó μ ±É Ò³ ² ³ ²Ö ²Ó Ï Ì ² μ. Éμ Ò ² μ Ò ±μ²² ³ Jamie Shiers, Gavin Mccance, Paolo Tedesco, Steve Traylen Maarten Litmaath ³ μ μî ² Ò μ² Ò μ Ê Ö. ²μ. Рɱ μ± μ² μ É ÒÌ μï μ± Id - 25 Sample - FINAL:SRM DEST: Failed on SRM put: SRM getrequeststatus timed out on put; Type - SRM FTS Classiˇcation - REQUEST TIMEOUT Reasons - most resent - high load of the storage system, but could be also FTS misconˇguration (to short timeouts) Id - 1 Sample - Operation was aborted (the gridftp transfer timed out) Type GRIDFTP FTS Classiˇcation - GRIDFTP Reasons - intermittent transfer timeout, could be lot of reasons Id - 8 Sample - the server sent an error response: 425 425 Can't open data connection. timed out() failed Type GRIDFTP FTS Classiˇcation - CONNECTION Reasons - the attempt to establish the data connection(s) with the peer had an error. This can have at least 2 causes: 1. The connection to the data port (in 9
the destination GLOBUS TCP PORT RANGE) is blocked by a ˇrewall or by a temporary network problem. 2. The connection succeeded, but the data transfer timed out. Id - 30 Sample - FINAL:SRM DEST: Failed on SRM put: Failed SRM put on [address] no TURL retrieved for [addres] Type SRM FTS Classiˇcation - GENERAL FAILURE Reasons - internal error on the destination SE Id - 21 Sample - DESTINATION during PREPARATION phase: [GENERAL FAILURE] CastorStagerInterface?.c:2507 Device or resource busy (errno=0, serrno=0) Type - Castor; FTS Classiˇcation - STORAGE INTERNAL ERROR Reason - normally means the ˇle is considered as still being written by some other request. An ªnslsª (or srmls) then shows the ˇle having a size of zero bytes. Such ˇles may be left behind when a request was terminated ungracefully; Id - 40 Sample - Destination and source ˇle sizes don't match!! Type dcache FTS Classiˇcation - INVALID SIZE Reasons - gridftp doors problem. Id - 31 Sample - Failed on SRM get: SRM getrequeststatus timed out on get Type - SRM FTS Classiˇcation - REQUEST TIMEOUT Reasons - Source ˇle is not staged, has to be recalled from tape. SE too busy (the timeout usually is 180 s). SE in bad shape. Id - 16 Sample - The server sent an error response: 421 421 Timeout (900 seconds): closing control connection. Type GRIDFTP FTS Classiˇcation - CONNECTION Reasons - bug in the gridftp code in retrieve() in ftpd.c Id - 11 Sample - an end-of-ˇle was reached Type dcache FTS Classiˇcation - GRIDFTP Reasons - Error transmitted by the dcache client when ˇle system is full or the data connection was closed prematurely for any other reason Id - 107 Sample - the server sent an error response: 451 451 rˇo read failure 10
Type CASTOR FTS Classiˇcation - STORAGE INTERNAL ERROR Reasons - CASTOR error that can happen due to misconˇguration, SW bug, HW error, and possibly overload Id - 313 Sample - SOURCE during PREPARATION phase: [REQUEST TIMEOUT] failed to prepare source ˇle in 180 seconds Type SRM FTS Classiˇcation - REQUEST TIMEOUT Reasons - most resent - high load of the storage system, but could be also FTS misconˇguration or the ˇle was not available on disk, had to be staged in from tape Id - 311 Sample - TRANSFER during TRANSFER phase: [TRANSFER TIMEOUT] gridftp copy wait: Connection timed out Type gridftp FTS Classiˇcation - TRANSFER TIMEOUT Reasons - transfer takes too long or some (conttrol or data) connection could not even be made Id - 362 Sample - TRANSFER during TRANSFER phase: [TRANSFER TIMEOUT] globus gass copy register url to url: Connection timed out Type gridftp FTS Classiˇcation - TRANSFER TIMEOUT Reasons - high load on channel, copying takes too long or some connection could not even be made, e.g. due to high load on the channel or on the network, or due to network/ˇrewall problems. Id - 75 Sample - SOURCE during PREPARATION phase: [GENERAL FAILURE] CastorStagerInterface?.c:2162 Required tape segments are not all accessible (errno=0, serrno=0) Type Castor FTS Classiˇcation - GENERAL FAILURE Reasons - the ˇle has to be staged in from a tape that currently is marked disabled because it has a problem Id - 309 Sample - DESTINATION during PREPARATION phase: [CONNECTION] failed to contact on remote SRM [srm]. Givin' up after 3 tries Type SRM FTS Classiˇcation - CONNECTION Reasons - can't connect SRM, SRM downtime or network/ˇrewall problem. Id - 90 11
Sample - FINAL:SRM SOURCE: Failed on SRM get: Failed SRM get on [addres] call. Error is RequestFileStatus?#-[] failed with error:[ at Wed Feb 21 12:18:44 CET 2007 state Failed : ˇle not found : path [path] not found Type User FTS Classiˇcation - INVALID PATH Reasons - wrong path ˆ 1. Šμ Ó±μ., ±. Ì É ±ÉÊ Î ÒÌ grid // ɱ Ò- ÉÒ É ³Ò. 2008. º 2. 2. Uzhinskiy A. FTS monitoring. [http://indico.cern.ch/getfile.py/access?contribid=21 &sessionid=1&resid=2&material Id=slides&confId=20080], WLCG Service Reliability Workshop, November 2007. http://egee-jra1-dm.web.cern.ch/egee-jra1-dm/fts/#transferjobs μ²êî μ 28 ³ Ö 2008.
P ±Éμ Œ. ˆ. Ê μ μ Î ÉÓ 21.10.2008. μ ³ É 60 90/16. ʳ μë É Ö. Î ÉÓ μë É Ö. ². Î. ². 0,93. Î.-. ². 1,10. 310 Ô±. ± º 56382. ˆ É ²Ó ± μé ² Ñ μ μ É ÉÊÉ Ö ÒÌ ² μ 141980,. Ê, Œμ ±μ ± Ö μ ²., ʲ. μ² μ-šõ, 6. E-mail: publish@jinr.ru www.jinr.ru/publish/